Python/Ruby

推荐列表 站点导航

当前位置:首页 > 脚本编程 > Python/Ruby >

使用python进行web抓取

来源:网络整理  作者:  发布时间:2020-12-26 15:53
书籍下载地址:https: bitbucket org xurongzhong python-chinese-library downloads源码地址:https: bitbucket org wswp code演示站点:http:...

使用python进行web抓取

书籍下载地址:https://bitbucket.org/xurongzhong/python-chinese-library/downloads

源码地址:https://bitbucket.org/wswp/code

演示站点:

演示站点代码:

推荐的python基础教程: 

HTML和JavaScript基础:

web抓取简介

为什么要进行web抓取?

网购的时候想比较下各个网站的价格,也就是实现惠惠购物助手的功能。有API自然方便,但是通常是没有API,此时就需要web抓取。

web抓取是否合法?

抓取的数据,个人使用不违法,商业用途或重新发布则需要考虑授权,另外需要注意礼节。根据国外已经判决的案例,一般来说位置和电话可以重新发布,但是原创数据不允许重新发布。

更多参考:

背景研究

robots.txt和Sitemap可以帮助了解站点的规模和结构,还可以使用谷歌搜索和WHOIS等工具。

比如:

1234567891011# section 1User-agent: BadCrawlerDisallow: / # section 2User-agent: *Crawl-delay: 5Disallow: /trap  # section 3Sitemap: http://example.webscraping.com/sitemap.xml

更多关于web机器人的介绍参见 。
Sitemap的协议: ,比如:

1234http://example.webscraping.com/view/Afghanistan-1http://example.webscraping.com/view/Aland-Islands-2http://example.webscraping.com/view/Albania-3...

站点地图经常不完整。

站点大小评估:
通过google的site查询 比如:site:automationtesting.sinaapp.com

站点技术评估:

# pip install builtwith

相关热词:

本站内容来源于网络,如有侵权请与我们联系,我们会及时删除,我们深感抱歉!
注:本站所有信息仅供用于网络技术学习参考,学习中请遵循相关法律法规!

本文地址: https://v30.fanwenzhu.com/jiaob/python/9351.shtml

相关文章
最新文章
python日常一 利用python抓取 python日常一 利用python抓取

时间:2021-01-17

一个 ARP 请求分组询问协议 一个 ARP 请求分组询问协议

时间:2021-01-17

此时就需要web抓取 此时就需要web抓取

时间:2021-01-17

这节我们使用Bootstrap 这节我们使用Bootstrap

时间:2021-01-17

我们该如何运用Python 来统 我们该如何运用Python 来统

时间:2020-12-27

python生成汉字图片字库 python生成汉字图片字库

时间:2020-12-26

python通过protobuf实现rpc python通过protobuf实现rpc

时间:2020-12-26

djngo快速实现使用Bootstra djngo快速实现使用Bootstra

时间:2020-12-26

Copyright © www.juheyunku.com      关于 | 合作 | 声明 | 联系 | 更新 | 地图 | Tags

使用python进行web抓取

2020-12-26 编辑:

使用python进行web抓取

书籍下载地址:https://bitbucket.org/xurongzhong/python-chinese-library/downloads

源码地址:https://bitbucket.org/wswp/code

演示站点:

演示站点代码:

推荐的python基础教程: 

HTML和JavaScript基础:

web抓取简介

为什么要进行web抓取?

网购的时候想比较下各个网站的价格,也就是实现惠惠购物助手的功能。有API自然方便,但是通常是没有API,此时就需要web抓取。

web抓取是否合法?

抓取的数据,个人使用不违法,商业用途或重新发布则需要考虑授权,另外需要注意礼节。根据国外已经判决的案例,一般来说位置和电话可以重新发布,但是原创数据不允许重新发布。

更多参考:

背景研究

robots.txt和Sitemap可以帮助了解站点的规模和结构,还可以使用谷歌搜索和WHOIS等工具。

比如:

1234567891011# section 1User-agent: BadCrawlerDisallow: / # section 2User-agent: *Crawl-delay: 5Disallow: /trap  # section 3Sitemap: http://example.webscraping.com/sitemap.xml

更多关于web机器人的介绍参见 。
Sitemap的协议: ,比如:

1234http://example.webscraping.com/view/Afghanistan-1http://example.webscraping.com/view/Aland-Islands-2http://example.webscraping.com/view/Albania-3...

站点地图经常不完整。

站点大小评估:
通过google的site查询 比如:site:automationtesting.sinaapp.com

站点技术评估:

# pip install builtwith

本站内容来源于网络,如有侵权请与我们联系,我们会及时删除,我们深感抱歉!
注:本站所有信息仅供学习参考!
本文地址为 https://v30.fanwenzhu.com/jiaob/python/9351.shtml

相关文章

风云图片

推荐阅读

返回Python/Ruby频道首页